Loading...
机构名称:
¥ 2.0

十多年来,已经进行了广泛的研究工作,即如何有效利用复发模型和注意力。重复模型旨在将数据压缩到固定大小的内存(称为隐藏状态)中,但注意力允许参与整个上下文窗口,从而捕获所有令牌的直接依赖性。然而,这种更准确的依赖性建模带有二次成本,将模型限制在固定长度上下文中。我们提出了一个新的神经长期记忆模块,该模块学会记住历史上下文,并有助于关注当前的环境,同时使用长期过去的信息。我们表明,这种神经记忆具有快速平行训练的优势,同时保持快速推断。从内存的角度来看,我们认为,由于其有限的上下文而引起的注意力,但准确的依赖性建模作为短期内存,而神经记忆由于记忆数据的能力而引起的,它是长期,更持久的记忆。基于这两个模块,我们介绍了一个新的架构系列,称为Titans,并提出了三个变体,以解决如何有效地将内存纳入该体系结构。我们对语言建模,常识性推理,基因组学和时间序列任务的实验结果表明,泰坦比变形金刚和最近的现代线性复发模型更有效。与基线相比,它们可以有效地扩展到大于2M上下文窗口尺寸,并具有更高的准确性。

arxiv:2501.00663v1 [cs.lg] 2024年12月31日

arxiv:2501.00663v1 [cs.lg] 2024年12月31日PDF文件第1页

arxiv:2501.00663v1 [cs.lg] 2024年12月31日PDF文件第2页

arxiv:2501.00663v1 [cs.lg] 2024年12月31日PDF文件第3页

arxiv:2501.00663v1 [cs.lg] 2024年12月31日PDF文件第4页

arxiv:2501.00663v1 [cs.lg] 2024年12月31日PDF文件第5页